O gráfico abaixo resume como se concentram e estão distribuídos os valores relacionados a emissão de blihetes aéreos com trechos além de BSB (Brasília). Para cada mês, podemos observar suas respectivas distribuições para duas categorias diferentes: quando o passageiro é o próprio parlamentar e quando é uma terceira pessoa. Ao fim da análise o leitor pode concluir que os valores de todos os bilhetes se concentram mais entre 0-1000 reais, a frequência de emissão de bilhetes para parlamentares é maior que para terceiros em todos os meses, pois a macha roxa é maior e mais escura que a laranja e que existem pontos com valores fora do padrão em que, em sua maior parte, foram de bilhetes para parlamentares.
## Loading required package: ggplot2
Para facilitar leitura foram feitas algumas mudanças. As categorias de passageiros que antes estavam sobrepostas foram separadas para uma melhor análise individual e comparação. Os valores negativos foram removidos da visualização, o intuito é somente ter valores que foram realmente gastos. Legendas foram adicionadas e uma mudança nas cores foi realizada para melhor compreensão das variáves. O tamanho do gráfico foi aumentado com a intenção de melhorar a visualização já que houve um maior espalhamento dos pontos plotados.
library(shiny)
library(dplyr, warn.conflicts = F)
library(readr)
library(ggplot2)
library(plotly)
##
## Attaching package: 'plotly'
## The following object is masked from 'package:ggplot2':
##
## last_plot
## The following object is masked from 'package:graphics':
##
## layout
theme_set(theme_bw())
data <- read.table("ano-atual.csv", sep = ",", header = T, stringsAsFactors=FALSE)
data <- subset(data, txtDescricao == "Emissão Bilhete Aéreo")
data <- subset(data, vlrDocumento > 0)
data$datEmissao <- substr(data$datEmissao,1,10)
data$txtPassageiro[data$txtPassageiro != data$txNomeParlamentar] <- FALSE
data$txtPassageiro[data$txtPassageiro == data$txNomeParlamentar] <- TRUE
data$txtTrecho[!grepl("BSB", data$txtTrecho)] <- FALSE
data$txtTrecho[grepl("BSB", data$txtTrecho)] <- TRUE
p = ggplot( data,
aes(datEmissao, vlrDocumento)) +
geom_point(position = position_jitter(width = .5),
alpha = .4) +
ylab("Médio gasto por bilhete (R$)") +
xlab("Quantidade de bilhetes emitidos")
(gg <- ggplotly(p))